1
За словами: понимание токенизации и тест на леденец
AI010Lesson 3
00:00

Скрытая архитектура языка

Большие языковые модели (LLM) не «читают» текст так, как это делаем мы. В то время как мы видим буквы и слова, модели обрабатывают информацию в числовых блоках, называемых токенами. Понимание этой абстракции — первый шаг к освоению разработки промптов и проектированию систем.

Тест на леденец

Почему модель с трудом переворачивает буквы в слове «lollipop», но мгновенно справляется, если просить перевернуть «l-o-l-l-i-p-o-p»?

  • Проблема:В стандартном слове модель видит один токен, представляющий всё слово. У неё нет чёткого «картирования» отдельных букв внутри этого токена.
  • Решение:Если вы добавите дефисы в слово, вы заставите модель разбить его на отдельные символы, обеспечивая необходимую детализацию для выполнения задачи.

Основные принципы

  • Отношение токенов:Как правило, 1 токен соответствует примерно 4 символам на английском языке или около трети слова.
  • Окна контекста:Модели имеют фиксированный размер «памяти» (например, 4096 токенов). Этот предел включает ваши инструкции и ответ модели.
Базовые модели против обученных по командам
  • Базовые модели ИЯМ:Прогнозируют следующее наиболее вероятное слово на основе огромных наборов данных (например, «Какой столица Франции?» может быть продолжено «Какой столица Германии?»).
  • Обученные по командам ИЯМ:Настроены с помощью обучения с подкреплением на основе человеческой обратной связи (RLHF), чтобы выполнять конкретные команды и действовать как помощники.
token_counter.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
If you are processing a document that is 3,000 English characters long, roughly how many tokens will the model consume?
A) 3,000 tokens
B) 750 tokens
C) 12,000 tokens
Question 2
Why is an Instruction-Tuned LLM preferred over a Base LLM for building a chatbot?
A) It is faster at generating text.
B) It uses fewer tokens.
C) It is trained to follow specific tasks and dialogue formats.
Challenge: Token Estimation
Apply the token ratio rule to a real-world scenario.
You are designing an automated summarization system. The system receives daily reports that average 10,000 characters in length.

Your API provider charges $0.002 per 1,000 tokens.
Step 1
Estimate the number of tokens for a single daily report.
Solution:
Using the rule of thumb (1 token ≈ 4 characters):
$$ \text{Tokens} = \frac{10,000}{4} = 2,500 \text{ tokens} $$
Step 2
Calculate the estimated cost to process one daily report.
Solution:
The cost is $0.002 per 1,000 tokens.
$$ \text{Cost} = \left( \frac{2,500}{1,000} \right) \times 0.002 = 2.5 \times 0.002 = \$0.005 $$